# 普通模式启动服务端
python -m vllm.entrypoints.api_server  \
    --model '/gemini/pretrain/Qwen2.5-0.5B-Instruct' \
    --host 0.0.0.0 \
    --port 8000 


#####################################
#####################################
#####################################


# 这个是测试服务器的 默认是文本续写模式
curl http://0.0.0.0:8000/generate \
  -H "Content-Type: application/json" \
  -d '{"prompt": "你好", "max_tokens": 20}'


# 这个是测试服务器的 chat模式
curl http://0.0.0.0:8000/generate \
  -H "Content-Type: application/json" \
  -d '{
      "prompt": "<|im_start|>user\n你好<|im_end|>\n<|im_start|>assistant",
      "max_tokens": 100 
  }'